Google:我能把文本变成音乐,但这个 AI 模型不能对外发布!
整理:屠敏
出品:CSDN
人工智能的春天已至,未来属于 AIGC。
继业界出现 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、图像、文本生成声音等模型之后,Google 最新带来了一种新的人工智能系统,让 AI 发力音乐圈,该系统可以在给定文本描述的情况下自动生成任何类型的音乐,为此,Google 还取了一个言简意赅的名字——MusicLM。
不过,值得注意的是,因为担心该系统存在一些潜在风险,Google 当前虽然已经研发了该系统,但暂时还没有对外公开发布它的计划。
MusicLM 的神奇之处
只闻其声不见其人,也为 MusicLM 带来了一些神秘感。不过,近日,Google 发布了一篇《MusicLM: Generating Music From Text》学术论文,揭开了 MusicLM 的面纱。
据论文介绍,MusicLM 是一个从文本描述中生成高保真音乐的模型,它将有条件的音乐生成过程描述为一个层次化的序列到序列的建模任务,其生成的音乐频率为 24kHz,在几分钟内保持一致。
在业界,MusicLM 并不是第一个 AI 音乐生成器,也正如外媒 TechCrunch 指出的那样,此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等项目都已经实现了音乐生成功能,那么,MusicLM 到底特别在哪里?
其实,MusicLM 的与众不同主要体现在以下几点:
一、MusicLM 的训练数据无可比拟
上述提到的几种模型往往由于技术限制和有限的训练数据,无法制作出作曲特别复杂或高保真度的歌曲。
相比之下,MusicLM 是在 280,000 小时的音乐数据集上进行了训练而成,由此可以帮助模型本身创造出令人称奇的多样性、深度的音乐。
二、MusicLM 可以直接根据文本提示生成长达几分钟的音乐片段
只要提供一段描述,MusicLM 模型可以文本自动生成符合场景的音乐,譬如提供的描述如下:
雷鬼舞曲和电子舞曲的融合,具有太空般的、另一个世界的声音。诱发在太空中迷失的体验,音乐将被设计为唤起一种奇迹和敬畏感,同时又是可舞蹈的。
关于 MusicLM 的更多详情可见:
https://google-research.github.io/seanet/musiclm/examples/
参考链接:
https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/